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摘 要 : 连续 目标 中 包含 更 加 丰富 的 信息 ， 为 了 更 好 的 获取 动态 手持 物体 中 的 视觉 信息 ， 以 不 同 背 景 下 的 动态 手持 
物体 为 目标 ， 基 于 步 长 自学 习 更 新 的 SGD 算法 (简称 SSU-SGD) 提出 了 适用 于 动态 手持 物体 识别 的 三 个 基准 ， 通 
过 自学 习 出 不 同 的 步 长 ， 分 别 在 已 知 类 、 未 知 类 和 已 知 对 象 的 基础 上 进行 巩固 训练 ， 用 于 后 续 的 动态 手持 物体 识别 
中 。 用 Alexnet 网 络 和 VGG 网 络 对 三 个 不 同 基准 下 的 naive 策略 和 累积 策略 进行 了 编程 实验 与 仿真 ， 经 实验 验证 ， 
该 方法 可 以 有 效 提 高 运行 速度 和 训练 精确 度 ， 并 且 有 效 提高 了 动态 手持 物体 识别 过 程 的 实时 性 ， 可 以 进一步 的 应 用 
于 实际 。 
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Dynamic handheld object recognition based on SSU-SGD 


Zhao Wencang, Chen Congcong, Zheng Honglei 
(Institute of Automation & Electronic Engineering, Qingdao University of Science & Technology, Qingdao Shandong 
266061, China) 


Abstract: Continuous object contains richer information. In order to obtain more meaningful visual information in dynamic 
handheld objects, targeting dynamic hand-held objects in different backgrounds. Based on the Step-size Self-learning 
Update SGD (SSU-SGD) , proposing three benchmarks for dynamic hand-held object recognition . Through self-learning of 
different step sizes, consolidating the train on the basis of known classes, unknown classes, and known objects for 
subsequent dynamic hand-held object recognition. Using Alexnet and VGG networks, performing the programming 
experiments and simulations of naive and cumulative strategies under the three different benchmarks. After experimental 
verification, this method can effectively improve the running speed and training accuracy and effectively improve the 
real-time nature of the dynamic hand-held object recognition process can be further applied to the actual. 
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麻烦 ， 提 高 迭代 效率 ， 同 时 可 以 避免 步 长 不 断 减 小 导致 迭代 


0 引言 停止 ， 并 且 在 此 基础 上 提出 了 三 个 适用 于 动态 手持 物体 识别 

连续 目标 在 日 常生 活 中 很 常见 ， 如 物体 的 移动 、 翻 转 吓 ， 的 基准 ， 该 基准 可 以 有 效 的 提高 识别 的 精确 度 ， 人 快速 得 得 到 

LE 连续 目标 往往 可 以 展现 更 丰富 的 信息 量 ， 通 过 分 析 连 续 多 帧 ”动态 手持 物体 识别 问题 的 最 优 解 ， 可 以 更 好 的 把 深度 学 习 的 
一 图 像 ， 可 以 获得 更 多 有 意义 的 视觉 信息 中。 人 了 眼 不 仅 可 以 看 方法 应 用 到 高 维 数据 流 的 识别 领域 。 实 验 表明 这 种 基于 

到 静止 的 物体 ， 还 可 以 对 运动 的 目标 进行 识别 、 定 位 和 跟踪 ”SSU-SGD 算法 的 动态 手持 物体 识别 基准 可 以 有 效 的 提高 训 
3 各， 从 图 像 识别 外 到 视频 检测 技术 中 ,连续 目标 识别 也 是 人 练 速度 和 分 类 精确 度 。 
工 智 能 领域 的 研究 热点 。 Sa 

目前 ， 单 帧 图 像 识别 领域 的 技术 已 经 比较 完善 ， 然 而 对 1 ”SSU-SGD 算法 
于 高 维 数据 流 的 识别 是 一 项 值得 挑战 的 研究 四， 由 于 高 维 数 ”1.1 SGD 
据 流 的 样本 库 非常 庞大 ， 识 别 方法 也 就 更 加 复杂 四。 深度 学 梯度 下 降 法 (SGD) 是 当下 深度 学 习 领 域 较为 流行 的 优 
习 方 法 成 功 的 应 用 于 图 像 识 别 外 、 语 音 识别 UH 和 自然 语音 处 ” ”化 算法 ， 梯 度 下 降 法 大 致 分 为 三 种 ， 需要 整个 训练 集 的 批量 
理 ! 册 等 领域 , 同 理 深度 学 习 方 法 也 可 较 好 的 应 用 于 动态 手持 ”梯度 下 降 、 仅 用 部 分 样本 训练 的 小 批量 梯度 下 降 和 仅 用 一 个 
物体 识别 。 随机 样本 进行 优化 的 随机 梯度 下 降 。 

本 文 利 用 深度 学 习 02' 3 方法 对 动态 的 手持 物体 1 进行 SGD 是 一 种 通过 在 目标 函数 梯度 Vi7(%) 的 反 向 上 更 新 
识别 ， 选 用 Alexnet 网 络 和 VGG 网 络 训练 ，Alexnet 网 络 ! 眉 ” 模型 参数 ， 使 得 模型 参数 的 目标 函数 7(4) 最 小 化 的 方法 。 以 
在 图 像 识别 领域 已 取得 较为 优异 的 成 果 ， 但 是 在 连续 目标 识 。 ”一 个 训练 样本 X, 和 标签 7 进行 一 次 参数 更 新 ，SGD 的 迭代 
别 领 域 的 精确 度 不 高 ， 而 VGG 网 络 09 的 最 大 特点 就 是 卷 积 。 公式 如 下 : 
层 多 , 计算 量 大 , 但 是 训练 速度 较 慢 。 本 文 提 出 的 SSU-SGD 4=A4-ViT (tx, y') (1) 
算法 可 以 根据 特征 出 现 的 频率 的 不 同 使 得 相应 参数 自学 出 不 ee Ce 0) 
同 的 步 长 ， 这 种 方法 可 以 避免 SGD 算法 07 1 中 调整 步 长 的 这 - ” 
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4 表示 迭代 的 权重 系数 ，* 和 y ”分别 表示 第 i 组 的 输入 特 if n> /当前 迭代 次 数 大 于 设置 的 阔 值 
征 和 输出 特征 ，h(x') 表示 拟 合 的 参数 ,对 于 一 系列 步 长 7， 7 全 RWO*(1y"”")+e ”1// 步 长 自学 习 法 则 1 
SGD 采用 : else /当前 迭代 次 数 小 于 设置 的 阔 值 
hh = CD) (3) ne RV +e // 步 长 自学 习 法 则 2 
于 SGD 通过 每 次 计算 只 选择 一 个 样本 ， 因 此 ，SGD 输出 7 。 

速度 会 更 快 。 说 明 ， 

但 在 梯度 下 降 的 同时 会 使 得 目标 函数 值 产生 巨大 的 波 R :每 次 更 新 的 幅度 
动 ， 即 方差 较 大 09' 2 各。SGD 的 另 一 个 关键 点 是 步 长 的 选择 w: 迭代 更 新 的 频率 
问题 ， 步 长 选择 过 大 或 过 小 ， 都 会 导致 无 法 正常 收敛 B21。 au : 迭代 更 新 的 初始 频率 


1.2 SSU-SGD 算法 的 实现 
为 了 避免 SGD 算法 中 调整 步 长 的 麻烦 ， 提 高 迭代 效率 ， 


2 基于 SSU-SGD 的 动态 手持 物体 识别 方法 


本 文 提出 的 SSU-SGD 算法 , 这 种 自学 习 出 不 同步 长 的 SGD ”2.1 动态 手持 物体 识别 的 基准 

算法 既 可 以 避免 步 长 的 不 断 减 小 使 得 参数 不 再 自动 调整 ， 终 将 深度 学 习 方 法 应 用 到 动态 手持 物体 识别 22， 连 续 目 标 
止 训练 过 程 ， 而 且 可 以 解决 由 于 步 长 设置 不 当 而 跳 过 最 优 解 ”识别 不 仅 要 考虑 物体 的 形状 、 大 小 、 人 位置、 光线 还 要 考虑 物 
甚至 无 法 得 到 最 优 解 的 问题 。 体 的 运动 方向 、 运 动 轨迹 等 信息 中 -9。 在 迭代 过 程 中 需要 训 


它 的 主要 思想 根据 特征 出 现 的 频率 不 同 使 得 相应 的 参数 。” 练 的 样本 量 巨 大 ， 而 且 训 练 样本 所 处 的 环境 复杂 多 变 ， 所 以 
可 以 自学 习 出 不 同 的 步 长 ， 即 使 得 特征 出 现 频率 高 的 参数 自 ”在 每 次 迭代 的 过 程 中 系统 的 整体 性 能 和 稳定 性 较 差 ， 识 别 率 


学 习 到 较 低 的 步 长 ， 特 征 出 现 频率 低 的 参数 自学 习 到 较 低 的 不 高 ， 因 此 提出 SSU-SGD 算法 ， 根 据 特 征 出 现 的 频率 使 相 
步 长 ， 给 出 两 个 步 长 自学 习 的 法 则 ， 其 中 : 应 参数 可 以 自学 出 不 同 的 步 长 ， 可 以 快速 得 到 动态 手持 物体 
法 则 1 在 迭代 更 新 频率 高 时 ， 自 学 习 出 较 小 的 步 长 : 识别 问题 的 最 优 解 。 
ne RY (mIy"™")+e (4) 本 文 根 据 提出 的 SSU-SGD 模型 ， 结 合 深度 学 习 方法 给 
法 则 2 在 迭代 更 新 频率 低 时 ， 自 学 习 出 较 大 的 步 长 : 出 三 种 适用 于 动态 手持 物体 识别 的 基准 ， 下 面 简单 介绍 一 下 
7 RY nm +e (5) 三 种 步 长 自学 习 SGD 的 动态 手持 物体 识别 基准 
其 中 : Rk 表示 每 次 更 新 的 幅度 ， 吧 表示 迭代 更 新 的 频率 ， 在 (benchmark ): 
迭代 更 新 频率 。 变 大 时 , 可 以 得 到 7 变 得 较 小 , 其 中 常数 = 可 Benchmarkl 在 训练 过 程 中 自学 习 出 不 同 的 步 长 和 和 迭 
以 防止 随 着 迭代 的 进行 步 长 7 逐渐 减 小 且 不 会 变 为 0， 可 以 ”” 代 次 数 ， 训 练 分 为 8 个 批 次 ， 对 第 一 批 次 的 某 一 场景 下 的 所 
保证 不 会 终止 训练 。 在 迭代 更 新 频率 @ 变 小 时 ，7 逐渐 变 大 。 ”有 对 象 进 行 训 练 ， 将 得 到 的 分 类 结果 用 于 调整 后 序 的 动态 手 
SSU-SGD 算法 使 用 指数 衰减 平均 ， 能 够 找到 凸 结构 后 。 持 物 体 识别 训练 ， 由 于 在 第 一 批 次 的 训练 中 可 以 得 到 分 类 结 
快速 收敛 ， 为 防止 过 拟 合 ， 在 研究 收敛 率 时 ， 讨 论 额 外 误差 果 ， 连 续 的 训练 批 次 是 对 已 知 类 的 改进 和 巩固 训练 。 
(excess error) 7()-mini(4) 在 次 迭代 后 额外 误差 量 级 是 Benchmark2 在 训练 过 程 中 自学 习 出 不 同 的 步 长 和 和 迭 
ei 代 次 数 ， 训 练 分 为 8 个 批 次 ， 每 一 个 批 次 都 完成 一 次 8 个 场 
Ve? 景 下 的 分 类 训练 ,不 能 将 第 一 批 次 的 训练 结果 用 于 后 序 训练 ， 
用 EIAZX?1, ,代替 步 长 7 的 得 到 SSU-SGD 算法 更 新 公式 如 ”所 以 每 一 批 次 都 是 在 未 知 类 的 基础 上 进行 训练 ， 连 续 的 训练 
式 (6) (7) 所 示 。 批 次 用 于 巩固 训练 。 
A -ELA41 ， 人 (6) Benchmark3 ”在 训练 过 程 中 自学 习 出 不 同 的 步 长 和 和 连 
ElV ] a 代 次 数 ， 对 每 一 批 次 都 进行 分 类 训练 ， 每 个 训练 批 次 不 仅 可 
MATA AN (7) ”以 得 到 分 类 结果 还 可 以 达到 对 每 个 对 象 的 不 同 场 景 下 的 识别 
要 求 ,连续 的 训练 批 次 是 对 未 知 类 和 对 象 的 改进 和 巩固 训练 。 


其 中 :EIA4?], 和 EIV?] 为 均 方 根 误差 ， 分 别 如 式 〈8) (9) 


2.2 CORe50 数据 集 
本 文采 用 CORe50 数据 集 , 该 数据 集 共 50 个 对 象 分 成 了 
10 类 用 于 实验 ， 考 虑 物体 的 位 置 和 光线 ， 分 别 在 11 个 不 同 
的 场景 (8 个 室内 和 3 个 室外 ) 收集 300 个 RGB-D 帧 的 动态 
E[V?],=yE[V2] +G-DVYa7CD) (9) 图 像 ， 相 当 于 50 X11X300 帧 图 像 用 于 训练 。 随 机 挑选 3 个 
7 赋值 为 0.9， 此 算法 的 优点 就 是 可 以 避免 手动 调节 步 场景 〈 包 括 室内 和 室外 ) 下 的 50X3X300 帧 图 像 用 于 测试 ， 
长 , 一 般 设 置 初始 值 为 0.01, 让 其 在 学 习 的 过 程 中 自己 变化 ， 其 余 8 个 场景 的 50X8X300 帧 图 像 用 于 训练 .如 图 2-2 所 示 ， 
同时 可 以 避免 SGD 算法 的 训练 过 程 中 分 母 累 积 的 和 越 来 越 包括 插头 适配器 、 移 动 电话 、 剪 刀 、 灯 泡 、 铅 、 了 眼镜 、 球 、 
大 , 保证 在 学 习 的 后 来 阶段 网 络 更 新 能 力 不 会 减弱 。 当 应 用 记号 笔 、 杯 子 和 遥控 器 等 10 类 手持 物品 。 
于 非 凸 函数 训练 神经 网 络 时 ， 学 习 轨 迹 在 穿 过 不 同 的 结构 后 3 ”实验 过 程 及 结果 


学 
4 


E[A74°], =7E[A42] ,+(1-7)A® (8) 


到 达 一 个 局 部 是 凸 碗 的 区 域 ， 这 种 方法 可 以 保证 快速 收敛 ， 
就 像 是 初始 化 于 该 碗 状 结构 的 SGD 算法 。 3.1 实验 平台 和 方法 
下 面 是 步 长 的 更 新 流程 ,SGD 的 步 长 自学 习 更 新 算法 步 实验 平台 选择 的 是 操作 系统 为 Linux Ubuntu16.04， 选 择 
长 更 新 流程 图 如 下 所 示 。 的 GPU 型 号 NVIDIA GTX1080Ti， 主 频 为 11 GHz， 可 用 显 
输入 : 当前 迭代 次 数 ni 。 存 大 小 为 11 GB。 
初始 化 加 =0.01，e=le 一 8 本 文 在 SSU-SGD 算法 的 基础 上 提出 适用 于 动态 手持 物 
/初始 化 步 长 7 和 设置 极 小 值 常数 体 识 别 的 三 个 基准 ， 该 基准 可 以 根据 特征 出 现 的 频率 自学 习 
while n,<N 1/ 判断 当前 连 代数 是 否 小 于 总 办 代数 出 不 同 的 步 长 ， 然 后 分 别 对 每 个 基准 用 Caffe 中 的 Alexnet 
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网 络 和 VGG 网 络 训练 。 将 CORe50 数据 集中 50*8*300 帧 
图 像 用 于 训练 , 50*3*300 帧 图 像 用 于 测试 。 在 动态 手持 物体 
识别 策略 中 naive 策略 仅仅 是 显示 当前 批 次 的 训练 结果 ， 而 
累积 策略 显示 当前 批 次 和 前 批 次 的 训练 结果 ， 所 以 理论 上 累 


A 大- 全 >> 4 


一 


图 1 


图 2 


训练 层级 结构 示意 图 
Fig.2 Training hierarchy 
3.2 实验 结果 与 分 析 
本 实验 进行 了 2000 次 迭代 , 以 预测 精确 度 作为 实验 性 能 
评价 的 指标 ， 为 了 衡量 本 文 所 提 方 法 的 对 动态 RGB-D 场景 
的 识别 性 能 ， 根 据 本 文 提 出 的 动态 手持 物体 识别 的 三 个 基准 
分 别 进行 实验 ， 得 到 图 3~5 所 示 的 结果 。 


T T T T T T 
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4 
训练 批 次 
图 3 ”Benchmarkl 在 不 同 网 络 下 的 识别 精确 度 


Recognition accuracy of Benchmark 1 in different networks 


Fig. 3 
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图 4 ”Benchmark2 在 不 同 网 络 下 的 识别 精确 度 


Recognition accuracy of Benchmark 2 in different networks 


Fig. 4 
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积 策略 的 方法 更 有 效 ， 本 文 分 别 对 Alexnet 网 络 和 VGG 网 
络 用 naive 策略 和 累积 策略 训练 ， 以 Benchmark2 (B2 ) 为 


例 ， 给 出 训练 层级 结构 示意 图 如 图 


CORe50 数据 集 样本 
Samples of CORe50 dataset 


2 所 示 。 
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0 10 20 30 50 


40 
训练 批 次 


图 5 Benchmark3 在 不 同 网 络 下 的 识别 精确 度 


Fig.5 Recognition accuracy of Benchmark3 in different networks 


其 中 Benchmarkl 下 Alexnet 网 络 和 VGG 网 络 得 到 的 精确 度 较 


高 ， 两 种 识别 策略 表现 良好 ， 在 Benchmark2 和 Benchmark3 中 不 同 


网 络 下 的 naive 策略 遭 到 了 灾难 性 遗忘 ， 而 昧 积 策略 表现 良好 ， 
萄 体 识别 基准 ， 将 训练 的 
结果 的 变化 。 综 合 比 较 图 


Benchmark3 是 最 接近 实际 生活 的 动态 手持 
batches 改 为 78， 可 以 更 加 精确 地 看 到 测试 
3~5 可 以 看 出 VGG 网 络 的 测试 结果 都 达到 
网 络 ， 尤 其 在 Benchmark2 和 Benchmark3 


70% 左 右 ， 


优 于 Alexnet 


中 naive 策略 变 得 完全 不 


可 用 , 通过 不 同 基 准 、 不同 网 络 的 比较 , 可 以 看 出 VGG 网 络 中 的 时 
积 策略 可 以 较 好 的 满足 动态 手持 物体 识别 的 要 求 。 


3.3 测试 结果 的 验证 


为 验证 本 文 方法 的 有 效 性 ， 将 基于 SSU-SGD 算法 的 动 


态 手持 物体 识别 的 
from scratch 和 Mid-CNN+SVM 进行 


个 温 


准 与 传统 的 识别 基 
了 了 对比。 对 CORe50 数据 
集 进 行 训练 测试 ， 得 到 验证 结果 如 表 1 所 示 。 


准 Mid-CNN 


表 1 不 同 基准 下 的 识别 精确 度 
Table 1 Recognition accuracy under different benchmarks 
Alexnet VGG 
accuracy/% 
Naive Cum Naive Cum 
Mid-CNNfrom 
3735 38.33 48.28 53.73 
scratch 
Mid-CNN+SVM S135 59.03 61.08 68.03 
Benchmarkl1 S7.38 67.64 60.41 71.68 
Benchmark2 9.13 67.26 11.15 70.66 
Benchmark3 21.16 67.56 25.37 70.14 


表 1 给 出 了 Mid-CNN from scratch 和 Mid-CNN+SVM 
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基准 下 的 识别 精确 度 和 本 文 提 出 的 基于 步 学 习 更 新 的 
SGD 动态 手持 物体 识别 基准 相 比 较 , 可 以 看 出 本 文 提 出 的 基 
于 SSU-SGD 算法 的 动态 基准 可 以 更 好 的 应 用 于 动态 手持 物 
体 识 别 ， 得 到 更 高 的 识别 精确 度 。 

接 下 来 给 出 SSU-SGD 算法 和 传统 SGD 算法 的 识别 精确 
度 ， 如 表 2 所 示 。 


FF，YR 


表 2 SSU-SGD 算法 与 SGD 算法 的 实验 对 比 
Table 2 ” Experimental comparison of SSU-SGD algorithm and SGD 
algorithm 
所 Alexnet VGG 

Naive Cum Naive Cum 

Benchmarkl 57.02 65.64 59.35 68.23 

SGD Benchmark2 9.12 67.04 11.23 68.58 
Benchmark3 20.68 65.35 25.23 69.02 
Benchmarkl 57.38 67.64 60.41 71.68 

SSU-SGD Benchmark2 9.13 67.26 11.15 70.66 
Benchmark3 21.16 67.56 25.37 70.14 


表 2 给 出 了 SSU-SGD 算法 和 传统 SGD 算法 的 识别 精 
确 度 ， 可 以 看 出 本 文 提出 的 基于 SSU-SGD 算法 的 基准 可 以 


更 好 的 应 用 于 动态 手持 物体 识别 ， 得 到 更 高 的 识别 精确 度 。 
4 ”结束 语 


本 文 在 研究 动态 手持 物体 识别 的 基础 上 改进 了 基于 
SSU-SGD 的 动态 手持 物体 识别 基准 ， 使 用 Alexnet 网 络 和 
VGG 网 络 同时 训练 , 提高 了 训练 速度 和 动态 手持 物体 识别 的 
精确 度 , SSU-SGD 算法 可 以 保证 用 较 少 的 数据 与 使 用 全 部 数 
据 的 训练 结果 一 致 ， 大 大 提高 训练 的 速度 ， 同 时 保证 产生 较 
小 的 训练 震荡 基于 SSU-SGD 算法 提出 的 动态 手持 物体 识别 
的 三 个 基准 相 比 较 传 统 的 Mid-CNN from scratch 和 
Mid-CNN+SVM 基准 可 以 较 好 满足 动态 手持 物体 识别 的 要 
求 。 由 于 受到 现 有 数据 库 的 限制 ， 本 文 没 有 对 复杂 环境 下 的 
动态 物体 识别 测试 ， 在 后 面 的 工作 中 将 在 构建 复杂 场景 动态 
样本 库 的 基础 上 测试 提出 的 方法 ， 进 而 提高 算法 的 可 靠 性 ， 
并 将 更 加 优化 的 算法 ; 应 用 到 视频 目标 识别 中 。 
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